Capacitación en Software R para análisis de datos

Atención

Este programa fue generado usando R y su entorno y puede ser usado como ejemplo para la creación del producto final del curso. Aprenda más Markdown Basics.

Ir directo a la Agenda

La Unidad Técnica de Vigilancia, Preparación y Respuesta a Emergencias y Desastres (PHE) y el Programa Especial de Inmunización Integral (CIM) de la Organización Panamericana de la Salud – Organización Mundial de la Salud (OPS/OMS) les dan la bienvenida a Quito, Ecuador y agradece su participación en las actividades que se realizarán en la ciudad.

Quito, Ecuador

1 Contexto y justificación

La necesidad de manejar un gran volumen de datos en la práctica habitual de los profesionales de los programas de epidemiología se ha vuelto un desafío evidente con la pandemia de COVID-19 cuando los sistemas de información en salud pusieron a disposición miles de registros en un corto periodo de tiempo. La consolidación y el análisis de datos a través de hojas de cálculo electrónicas y tabuladores tradicionales fueron insuficientes, por lo que fue necesario el uso de herramientas más robustas y versátiles. En este sentido, R es un software de código abierto, gratuito, muy útil para profesionales interesados en explorar, analizar y comprender los datos epidemiológicos. Con él es posible realizar una gran variedad de técnicas estadísticas y gráficas, desde las más sencillas hasta las más complejas.

R

RStudio

Aprender las funciones básicas de R requiere perseverancia y motivación, especialmente para los usuarios que no están acostumbrados al lenguaje de programación. Sin embargo, esta inversión de tiempo en el aprendizaje inicial se ve compensada en gran medida por las ventajas de su uso frente a los softwares comerciales, como la oferta de paquetes con funciones propias de un área del conocimiento. A través de este taller de capacitación le invitamos a iniciar este recorrido, que requerirá una actitud activa, ya que el aprendizaje de R, como el de otros programas, sólo ocurre a través del uso. El taller se enfoca en las emergencias de salud pública, pero lo que usted aprenderá se puede aplicar a otros resultados de salud.

2 Objetivo, audiencia y competencias

El objetivo de la actividad es capacitar a las personas encargadas del análisis de datos de los programas de epidemiología de la Región en el uso de R y su entorno, entregando herramientas eficientes y sostenible en el tiempo; y fomentar la colaboración y el crecimiento conjunto entre los países.

El taller está dirigido a profesionales que trabajan en programas de epidemiología de Ecuador. Los requisitos para participar son: formación en educación superior, trabajar con análisis de datos de los programas de epidemiología, disponibilidad para participar en la semanas de clases presenciales y las tutorías en línea. Son requisitos deseables para participar: tener al menos un año de experiencia profesional en epidemiología o tener al menos un año de experiencia en análisis de datos.

El objetivo de la capacitación es apoyar el análisis de datos mediante el aprendizaje de herramientas del entorno R que sean útiles para los profesionales de la salud en su trabajo diario, contribuyendo a la elaboración de informes de situación y optimización de rutinas de análisis.

Al finalizar de la capacitación, el alumno será capaz de:

  • Instalar y cargar paquetes;
  • Importar, exportar y tratar datos;
  • Calcular indicadores epidemiológicos;
  • Hacer análisis exploratorio de datos;
  • Realizar manipulaciones simples de datos;
  • Crear gráficos y tablas;
  • Elaborar mapas.

3 Producto esperado

3.1 Informe

Para consolidar su aprendizaje y practicar sus nuevas habilidades, se espera que, al final de la capacitación, usted produzca un informe utilizando la herramienta R. Los análisis deben realizarse principalmente utilizando bases de datos seleccionada. Le sugerimos que aproveche la oportunidad para automatizar algún análisis habitual de su equipo, con el fin de generar un producto útil que optimice su tiempo y proceso de trabajo.

Para integrar su informe, se deberá construir al menos tres visualizaciones (tabla, gráfico y mapa) previamente definidas en un plan de análisis. Dichas visualizaciones pueden contener números absolutos, proporciones, coeficientes, categorías u otros indicadores atingentes al evento seleccionado. El informe también debe incluir un texto de entre 1.500 y 2.000 caracteres (aproximadamente 4 páginas) que contextualice la situación seleccionada y presente consideraciones sobre los resultados encontrados.

El desarrollo de su informe ocurrirá a lo largo del curso, a través de la elaboración de cuatro productos:

  1. Plan de análisis;
  2. Tabla o gráfico relacionado con las variables de persona;
  3. Gráfico relacionado con las variables de tiempo; y
  4. Mapa relacionado con las variables de espacio.

Aunque es un reto, usted tendrá compañía en este proceso, ya que contará con tutorías para aclarar dudas y el apoyo del grupo. Recuerde el potencial colaborativo de R. El intercambio de experiencias puede favorecer mucho su aprendizaje.

3.2 Plan de análisis

El plan de análisis guiará todo el desarrollo de su informe, es decir, es una guía paso a paso para la construcción de su script. Por lo tanto, usted debe definir el objetivo de su informe y todos los análisis que desea realizar. Recuerde que no tiene que ser algo muy complejo, lo importante es que usted pueda practicar los contenidos aprendidos en cada módulo.

El plan de análisis debe contener al menos:

  • Objetivo del análisis;
  • Periodo de estudio;
  • Unidad de análisis (por ejemplo, municipio, estado);
  • Fuente de datos;
  • Variables que se utilizarán;
  • Criterios de inclusión o exclusión (por ejemplo, solo dosis administradas antes del año de vida);
  • Limpieza/tratamiento que se realizará en la base de datos;
  • Indicadores que se calcularán y método de cálculo;
  • Tabla o gráfico que se presentará con variables relacionadas con las personas (por ejemplo, tabla descriptiva con grupo de edad, sexo y raza/color de piel; gráfico de barras de la variable nivel de educación);
  • Gráfico que se realizará con variables relacionadas con el tiempo (por ejemplo, dosis administradas por semana epidemiológica);
  • Mapa que se realizará con variables relacionadas con el espacio (por ejemplo, mapa de cobertura por municipio).

4 Estructura del taller

La capacitación se distribuye en dos módulos presenciales y un módulo de tutorías a distancia.

flowchart LR
  A[Módulo 1 \n Presencial \n 15 al 19, julio] --> 
  B(Módulo 2 \n A distancia \n 22 a 26 de julio) --> 
  C[Módulo 3 \n Webinario de presentación de proyectos  \n TBD]

El contenido se estructura en 4 unidades:

  1. Introducción a R (20h);
  2. Manejo de datos y características relacionadas con las personas (40h);
  3. Características relacionadas con el tiempo (20h); y
  4. Características relacionadas con el lugar (20h).

La carga horaria total de la capacitación es, por lo tanto, de 100 horas, que se deben completar en un período de hasta tres meses.

Cada unidad está compuestas por distintas clases, el contenido de cada una de las clases se describe en las tablas 1 a 4.

Atención

Estas tablas están importada desde un archivo en formato Excel.

Unidad 1: Introducción a R
Clase Contenido
Instalación y configuración (R y RStudio) ¿Qué es R?
¿Qué es Rstudio?
Resolución de dudas de instalación de R y Rstudio
Paneles
Configuraciones útiles
Conceptos fundamentales para empezar a programar en R Scripts
Operadores
Objetos
Funciones
Instalación y actualización de paquetes
Clases (Tipos de dato)
Flujo de trabajo: directorio, entorno del proyecto y tidydata Directorios de trabajo
Proyectos de R
Estructura de carpetas de un proyecto
Los principios de Tidy data y el paquete Tidyverse
Piping (%>%)
Unidad 2: Otros
Clase Contenido
Importación y exportación de archivos a R Importación y exportación de datos con el paquete rio (.csv, .xlsx, Google Sheets, entre otros)
Importación de datos de forma manual
Importación de datos con estructura
Formatos estándar de R (.rds y .RData)
Exportación
Gramática Tidyverse: preparación de la base de datos para el análisis (parte 1). Estructura general de la base y de las variables
Seleccionar columnas: select()
Renombrar variables: rename()
Paquetes y funciones útiles para diferentes clases de variables
Análisis exploratorio de los datos: count(), table(), summary()
Gramática Tidyverse: preparación de la base de datos para el análisis (parte 2). Crear y transformar columnas: mutate()
(Re) categorizar variables: case_when()
Agrupar datos: group_by()
Resumir los datos: summarise()
Filtrar filas: filter()
Manejar datos faltantes (en blanco, NA, ign)
Ordenar la base: arrange()
Tabulación de datos_1 ¿Por qué presentar los datos en tablas?
Reglas generales de tabulación
Tablas de conteo
Tablas con medidas sumarias
Unión de bases: binds() y joins()
Pivotación (long y wide)
Paquetes de apoyo para creación y diagramación de tablas
Tabulación de datos_2 ¿Por qué presentar los datos en tablas?
Reglas generales de tabulación
Tablas de conteo
Tablas con medidas sumarias
Unión de bases: binds() y joins()
Pivotación (long y wide)
Paquetes de apoyo para creación y diagramación de tablas
Gramática de los gráficos 1 La estructura general de configuración de un objeto ggplot2
Qué son estéticas
Qué son geometrías
Gráficos para variables numéricas
Gráficos para variables categóricas
Facetas: facet_wrap() y facet_grid()
Guardar: ggsave
Gramática de los gráficos 2 La estructura general de configuración de un objeto ggplot2
Qué son estéticas
Qué son geometrías
Gráficos para variables numéricas
Gráficos para variables categóricas
Facetas: facet_wrap() y facet_grid()
Guardar: ggsave
Unidad 3: Caracterísiticas relacionadas con el tiempo
Clase Contenido
Epicurvas ¿Qué son los histogramas?
Histogramas con ggplot2
Especificar número y ancho de las cajas (barras)
Editar eje x para variables de tipo fecha
Cuando los datos están agregados
Histogramas estratificados
Histogramas que superan años
Ggplot2: Diagramación Títulos y etiquetas
Reordenar la disposición de los grupos (categorías)
Objetos ggplot
Temas completos
Temas ajustados manualmente
Colores
Leyendas
Escalas: de fechas, numéricas, categóricas
Incidencia ¿Qué es la incidencia?
Cálculo de incidencia
Cálculo de incidencia acumulada
Incidencia por área subnacional
Media móvil ¿Qué son las medias móviles y por qué usarlas?
Presentar la función rollmean() para calcular medias móviles
Visualización de la curva epidémica con y sin medias móviles
Unidad 4: Características relacionadas con el espacio
Clase Contenido
Nociones generales de cartografía Introducción a los datos espaciales
Territorio en Salud
Características espaciales
Mapas más comunes para la visualización de datos en emergencias
¿Qué son los shapefiles?
Divisiones administrativas en el país
Otros shapefiles
Mapas temáticos para otras divisiones geográficas (1) Paquetes con datos espaciales y sus funcionalidades
Cómo cargar los shapes
Agregar datos al shape
Mapa de la tasa de incidencia (Coroplético)
Mapa de variación
Crear shape de región metropolitana en R
Mapas temáticos para otras divisiones geográficas (1) Paquetes con datos espaciales y sus funcionalidades
Cómo cargar los shapes
Agregar datos al shape
Mapa de la tasa de incidencia (Coroplético)
Mapa de variación
Crear shape de región metropolitana en R
Mapas temáticos para otras divisiones geográficas (2) Paquetes más usados para mapas
Importación de shapefiles
Mapa de letalidad (Separatrices)
Centroides por Región Administrativa
Mapa con presentación de letalidad en el polígono y número de casos en círculos proporcionales
Diagramación de mapas Escala: incluir y editar unidades (km, mts)
Rosa de los vientos
Latlong en los márgenes
Paletas adecuadas para mapas
Resaltar un área geográfica
Diagramación de divisiones geográficas, leyendas, títulos y otros aspectos visuales
Exportar en formato vectorial

5 Agenda

Preparación: instalación de R y RStudio.

Antes de su llegada al módulo 1 deberá completar la instalación de R y RStudio en su computadora. Para esto, le pedimos seguir los pasos de la siguiente presentación. Link

Presencial, Lunes 15 al viernes 19 de julio.

5.1 Día 1

Horario Clase
08:00 - 09:30 Ceremonia de apertura
09:30 - 10:00 Instalación y configuración (R y RStudio)
10:00 - 10:20 Pausa AM
10:20 - 12:30 Conceptos fundamentales para empezar a programar en R
12:30 - 13:30 Almuerzo
13:30 - 15:00 Flujo de trabajo: directorio, entorno del proyecto y tidydata
15:00 - 15:20 Pausa PM
15:20 - 16:00 Dudas y análisis de datos: elaboración del informe (1)
16:00 - 16:30 Resumen del día

5.2 Día 2

Horario Clase
08:00 - 08:30 Revisión del día anterior
08:30 - 10:00 Importación y exportación de archivos a R
10:00 - 10:20 Pausa AM
10:20 - 12:30 Gramática Tidyverse: preparación de la base de datos para el análisis (parte 1).
12:30 - 13:30 Almuerzo
13:30 - 15:00 Gramática Tidyverse: preparación de la base de datos para el análisis (parte 2).
15:00 - 15:20 Pausa PM
15:20 - 16:00 Dudas y análisis de datos: elaboración del informe (1)
16:00 - 16:30 Resumen del día

5.3 Día 3

Horario Clase
08:00 - 08:30 Revisión del día anterior
08:30 - 10:00 Tabulación de datos_1
10:00 - 10:20 Pausa AM
10:20 - 12:30 Tabulación de datos_2
12:30 - 13:30 Almuerzo
13:30 - 15:00 Gramática de los gráficos 1
15:00 - 15:20 Pausa PM
15:20 - 16:00 Gramática de los gráficos 2
16:00 - 16:30 Resumen del día

5.4 Día 4

Horario Clase
08:00 - 08:30 Revisión del día anterior
08:30 -10:00 Epicurvas
10:00 - 10:20 Pausa AM
10:20 - 12:30 Ggplot2: Diagramación
12:30 - 13:30 Almuerzo
13:30 -15:00 Incidencia
15:00 - 15:20 Pausa PM
15:20 - 16:00 Dudas y análisis de datos: elaboración del informe (1)
16:00 - 16:30 Resumen del día

5.5 Día 5

Horario Clase
08:00 - 08:30 Revisión del día anterior
08:30 - 10:00 Media móvil
10:00 - 10:20 Pausa AM
10:20 - 12:30 Dudas y análisis de datos: elaboración del informe (2)
12:30 - 13:30 Almuerzo
13:30 - 15:00 Cierre del Taller
Nota

La agenda puede estar sujeta a cambios conforme se altere la logística.

6 Datos prácticos

6.1 Grupo de autoayuda

Hemos generado un grupo de WhatsApp al que le invitamos a participar de manera voluntaria. Tiene el objetivo de mantener un canal de comunicación abierto durante el desarrollo del curso y en el futuro.

6.2 Hotel

Hotel Finlandia Finlandia 188, Quito 170135, Ecuador

6.3 Información adicional

En Ecuador el voltaje común es 110 V. La frecuencia es 60 Hz. Las clavijas y enchufes son del tipo A / C.

7 Recursos

  1. Organización Panamericana de la Salud. Herramientas para el monitoreo de coberturas de intervenciones integradas de salud pública. Vacunación y desparasitación para las geohelmintiasis. Washington, D.C.: OPS; 2017.

  2. Organización Panamericana de la Salud. Registro nominal de vacunación electrónico: consideraciones prácticas para su planificación, desarrollo, implementación y evaluación. Washington, D.C.: OPS; 2017.

  3. Batra, Neale, et al. Manual de R para Epidemiología (EpiRhandbook). 2021.

  4. Organización Mundial de la Salud. Agenda de Inmunización 2030. Una estrategia mundial para no dejar a nadie atrás. Geneva; 2020.

  5. Organización Panamericana de la Salud. CD59/10 - Revitalizar la inmunización como un bien público para la salud universal. Washington, D.C.: OPS; 2021.